iT邦幫忙

2022 iThome 鐵人賽

DAY 3
0

常見的資料分析流程如下:
https://ithelp.ithome.com.tw/upload/images/20220908/20151279wE6LtZHMeu.jpg

圖片來源:https://www.flaticon.com/

  1. 資料描述 (Data exploration)

    • 了解資料內有哪些欄位並辨別欄位的特性(數值型、類別性)
    • 確認自變數(independent variable)和應變數(dependent variable)
    • 進行敘述性統計、資料視覺化
    • 找出是否有離群值(outlier)、遺失值(missing value)等需要進行資料清洗
  2. 數據清理 (Data cleaning)
    由於資料在產生或蒐集時可能會造成資料格式錯誤或資料遺失等問題,因此在進行分析前,需透過數據清理做好前置作業,以確保後續的分析之正確性。

    • 缺失值(Missing value)/不完整的資料(Incomplete data)
      針對此部分,先判斷缺失值是否為系統造成或是人為造成,根據不同缺失值產生原因,有不同的補值方法。
    • 欄位數值錯誤及含有特殊字元
    • 資料型態不一致
  3. 資料前處理(Data preprocessing)
    在建立預測模型之前,可能會碰到資料不平衡的問題、不同欄位之間是否可以進行比較等相關問題。在穿戴式裝置資料中,根據裝置設計的不同,每一秒所紀錄的資料點亦有不同,因此為了減少資料雜訊,也有需多人會使用平滑法(smoothing)來處理資料。

  4. 訓練/測試
    根據所制定的目標,挑選所要使用的統計模型、機器學習模型、深度學習模型等,並使用資料進行訓練

  5. 結果解讀
    不同的模型具有不同的可解釋性,可解釋性的模型除了可獲得分類結果外,亦可得知變數重要性等訊息,因此可針對變數進行更多的結果


上一篇
[Day2] 穿戴式裝置資料集介紹
下一篇
[Day4] 資料視覺化(Data visualization)
系列文
人類行為數據分析- 以R和Python進行實作30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言